GTC 2024 — Blackwell B200 发布
开场:这不是演唱会,这是开发者大会
"欢迎来到 GTC。我希望你们意识到,这不是一场演唱会——你们进入的是一场开发者大会。接下来会有大量的科学、算法、计算机架构、数学内容。我刚刚在房间里感到一阵莫名的沉重,好像你们忽然意识到'我可能来错地方了'。"
他说这场大会的伟大之处是:真正站上台的不是那些 IT 老朋友——迈克尔·戴尔就坐在这儿——而是非 IT 行业的人。生命科学、医疗、基因组学、运输、零售、物流、制造、工业……"在场的产业加起来代表了 100 万亿美元的世界经济。真的有什么事情正在发生。整个行业正在被改变——不止我们的行业。因为计算机是当今社会最重要的工具,计算本身的根本性变革会影响每一个行业。"
"我们是怎么走到这里的?我画了一张漫画。1993 年我们创立 NVIDIA。2006 年 CUDA 平台——我们当时就觉得这是革命性的计算模型,以为会一夜成名,然后差不多 20 年后它才真正成为主流。2012 年 AlexNet——AI 和 CUDA 第一次接触。2016 年我们发明了 DGX-1,170 teraflops、8 颗 GPU 第一次连在一起——我亲手把第一台 DGX-1 送到了一家叫 OpenAI 的旧金山初创公司。2017 年 Transformer 诞生。2022 年 ChatGPT 抓住了全世界的想象力。2023 年,生成式 AI 出现,一个全新的产业诞生了。"
一个全新产业:为什么这是新的工业革命
"为什么说是一个新产业?因为这种软件以前不存在。我们现在用计算机来写软件,生产的是一种从前不存在的软件。这是一个全新的品类——它不是从别的品类抢份额,它是从零开始的新品类。而这种软件的生产方式,跟我们以前做过的任何东西都不一样——它是在数据中心里生成 token、在极大规模上产出浮点数。"
然后他给出了整场演讲里最精炼的一段类比:"就像上一次工业革命开始时,人们意识到你可以建一座工厂、给它通电,然后产出一种看不见却极其有价值的东西——电。发电机出现,然后过了 100 年、200 年,我们今天在用一种叫做 AI 工厂 的基础设施,生产一种新的电子——token——产出一种新的极其有价值的东西:人工智能。一个新的产业诞生了。"(生成式 AI 工业革命)
他也预告了未来主题:"我们要讲接下来怎么做计算,讲因为这个新产业而要写的新软件,讲新应用,以及——我们今天要怎么为下一个时代做准备。"
检索 vs 生成:计算范式的根本转向
"过去我们做计算的方式是检索。你拿起手机、点一下,一个信号跑出去,从某个存储里把预先录制好的内容——一段文字、一张图、一个视频——流回到你的手机上,再按推荐系统的方式重新组装展示给你。"
"未来,绝大部分内容都不会再用'检索'这种方式产生。因为检索出来的东西是'不懂你在什么语境里'的某个人事先录好的——这就是为什么今天我们要检索那么多内容。如果你跟一个懂你语境、懂你为什么要这个信息的 AI 一起工作,它会按你想要的方式生成信息给你。我们能省下的能源、网络带宽、浪费的时间将是巨大的。未来是生成式的,这就是为什么我们叫它'生成式 AI',这就是为什么这是一个全新产业。"
加速计算的临界点:省钱 vs 提规模
"加速计算已经到了临界点。通用计算已经没动力了——我们必须换一种方式做计算,才能继续扩展、继续把成本往下压、在可持续的前提下继续消耗更多计算。加速计算 比通用计算快一大截。"(摩尔定律已死)
但他在这里甩出一个与过去不同的观点:对 NVIDIA 所服务的那些工业模拟行业来说,事情甚至不是"降低计算成本",而是"把计算规模拉起来"。"我们要能用完整保真度、完全数字化地把整个产品仿真出来、造出来——这就是 数字孪生。我们要数字化地设计、建造、仿真、运行。"
他顺势宣布一连串"把整个行业拉进加速计算"的合作:Ansys、Synopsys、Cadence——"这三家公司基本上是我们造 NVIDIA 用的工具。我们要 CUDA 加速 Cadence、Synopsys 和 Ansys,把它们统统接到 NVIDIA Omniverse。台积电今天宣布正式用 cuLitho 量产。"(TSMC)
这里还有一个藏着的现金流逻辑:"一旦你加速了,你的基础设施就是 CUDA GPU——而这些 GPU 跟生成式 AI 用的是同一套基础设施。所以当你为工程仿真部署加速计算的时候,你顺便就为生成式 AI 做好了准备。这是隐藏的红利。"
Scaling Law 背后的算术:"1000 年,值得"
"Transformer 发明之后,大语言模型以惊人的速度扩展——基本上每 6 个月翻一倍。为什么每 6 个月翻一倍还能把整个产业推着往前冲?很简单:你把模型规模翻倍,相当于把大脑翻倍,你就需要两倍的数据去填满它。所以每次参数量翻倍,你的训练 token 数也要相应增加,两者相乘就是你需要的算力规模。"
"OpenAI 最新的 state-of-the-art 模型大概是 1.8 万亿参数,训练时要几万亿 token。两者相乘大概是 30-50 万亿 quadrillion 次浮点运算。我们做点 CEO 数学:一个 quadrillion 差不多就是一个 peta。如果你有一颗 petaflops GPU,你需要 300 亿秒。300 亿秒是多少?大概 1000 年。"
"好吧,1000 年也值得——我一般都是这么回答人的。别人问我'这事要花多久?'我说 20 年,值得。但是能不能下周就做出来?"
"所以我们需要更大的 GPU。我们很早就意识到这点,所以把一堆 GPU 连在一起——发明 Tensor Core、推进 NVLink 让它们变成一个虚拟巨型 GPU、用 Mellanox 的 InfiniBand 把整个系统连起来。DGX-1 只是第一版,不是最后一版。我们一路建超级计算机:2021 年 Selene 4500 颗 GPU,2023 年 Eos。我们建这些是为了帮助全世界建这些——而要帮世界建,我们自己必须先建。"
介绍 Blackwell:不是芯片,是平台
"Hopper 棒极了,但我们需要更大的 GPU。各位,请欢迎一颗非常非常大的 GPU——"
他拿起 Blackwell 实物芯片,对旁边的 Hopper 说:"It's okay, Hopper. 你是个好 GPU,好女孩。"
"Blackwell 不是一颗芯片。Blackwell 是一个平台的名字。人们以为我们造 GPU——没错我们是——但 GPU 已经不是它过去的样子了。"
208 亿晶体管。而且是第一次,两颗 die 以这种方式并排连在一起——"10 TB/s 的 die-to-die 带宽,让 Blackwell 芯片的两侧根本不知道自己在哪一侧。没有内存局部性问题,没有缓存问题。它就是一颗巨型芯片。当我们告诉工程师 Blackwell 的野心超出了物理极限时,工程师说'so what?'——然后就做出来了。"
然后是一系列架构创新:第二代 Transformer Engine 能在运行时动态地把数值格式缩放到更低精度(FP8 → FP6 → FP4),同时保持推理收敛。第五代 NVLink,双向 1.8 TB/s 的芯片级互联,而且在网络内做计算(all-reduce、all-to-all、all-gather)。RAS 引擎——可靠性引擎,对 Blackwell 每一个逻辑门、每一个内存 bit 做 100% 自检:"就像我们给每颗芯片都附送了一个高级测试仪——当你花 20 亿美元建一台超级计算机,你最不想看到的就是它宕机。"
5x 的 token 生成能力。"为什么不满足于 5x?因为这还不够。"
NVLink Switch:500 亿晶体管的连接器
"我们需要一颗更大的 GPU。所以我们造了另一颗芯片。500 亿晶体管,差不多跟 Hopper 自己一样大。这颗芯片叫 NVLink Switch——它让每颗 GPU 都能以满带宽同时跟每一颗其他 GPU 说话。这听起来不可思议,这几乎不合理。但如果你能做到、并且便宜地做到——那么所有 GPU 就连成一颗巨型 GPU 了。"
"而要做到便宜,这颗芯片必须能直接驱动铜线。它的 SerDes 就是一个非凡的发明,让我们可以直接走铜线。因此我们可以造出这样的系统——"
他搬出 GB200 NVL72 机柜:"这是一颗 DGX——六年前我能亲手把第一台 DGX-1 送到 OpenAI(0.17 petaflops)。现在这台是 720 petaflops,差不多是世界上第一台单机柜 exaflops 级训练机。3000 磅,5000 根 NVLink 线,一共两英里长;如果我们改用光学 transceivers,单是 transceiver 就要烧掉 2 万瓦——白白浪费。我们靠 NVLink Switch 省掉了这 20 千瓦。液冷进水 25 度、出水 45 度——你可以拿它当按摩浴缸外设卖。600000 个零件——大致就是一辆碳纤维法拉利的重量。"
训练 GPT:8000 GPU 15 兆瓦 → 2000 GPU 4 兆瓦
"训练一个 1.8 万亿参数的 GPT 模型——原来用 25000 颗 Ampere 大概要 3-5 个月。换 Hopper,大概要 8000 颗 GPU、15 兆瓦、90 天。换 Blackwell,只需要 2000 颗 GPU、4 兆瓦、90 天。"
"我们的目标就是持续把成本和能源降下去——它们成正比。这样我们才能继续扩大训练下一代模型所需的算力。"
训练讲完,他话锋转到推理:"其实如今 NVIDIA GPU 在云里大概一半的时间是在做 token 生成——你的 copilot、你的 ChatGPT、图像生成、视频生成、蛋白质生成、分子生成。这些都属于推理这个品类——但更准确的说法是生成。"
推理对大模型而言极其难:"这些模型大到一颗 GPU 装不下。想象一下 Excel 装不下你的电脑,你日常用的应用装不下一台计算机——这在超大规模云计算里几乎从未发生过。但突然之间,一个推理应用就需要后面一台超级计算机来跑。这就是未来。"
他展示出那张经典的"tokens per second per user × tokens per second per data center"图表,X 轴是用户的交互速率,Y 轴是工厂的吞吐量。"这两个维度彼此对抗。右上角最好,但很难做到。"然后解释了 tensor parallel、expert parallel、pipeline parallel、data parallel 的组合搜索空间:"这个搜索空间之大,如果不是因为 NVIDIA GPU 的可编程性、CUDA 的生态,根本探索不了。"
然后是杀招:在 reasoning 和大模型推理上,Blackwell 是 Hopper 的 30 倍。"一代之内。因为这是一台为 trillion-parameter 生成式 AI 专门设计的系统。"
NIM:AI 时代的软件分发单位
Blackwell 讲完,他转向软件。"既然我们造了一台生成式 AI 时代的计算机,那么生成式 AI 时代的软件长什么样?"
答案是 NIM——NVIDIA Inference Microservice。"一个 NIM 就是一个预训练模型,已经打包好、已经优化好,可以在 NVIDIA 的所有硬件上跑。你去 ai.nvidia.com 就能下载。"
NIM 的核心思想是让 AI 变成可组合的微服务。"想象一下,某一天你用一个聊天机器人——它本身就是一个 NIM。它的一部分执行计划可能被交给另一个 NIM:比方说一个懂 SAP 和 ABAP 的 NIM、一个懂 ServiceNow 的 NIM;再交给另一个 NIM 去做组合优化计算。所有这些 NIM 拼在一起像一个团队一样协作,做惊人的事情。"
他还讲了企业里最让他兴奋的一件事——把企业数据变成可以"对话"的知识库:"企业 IT 是一座金矿。我们公司的绝大多数数据不在云里,在公司内部,静静躺着不被充分利用。我们想做的是学习它的含义——就像我们学会一只猫的像素含义——然后把它重新索引到一种新型数据库里,叫向量数据库。于是结构化和非结构化数据都被编码成一个 AI 数据库,你可以直接跟它对话。我们的软件团队现在每天就跟 bug 数据库聊天:'昨晚有多少个 bug?我们有进展吗?'——然后你需要做心理治疗。所以我们还有另一个聊天机器人给你。"
这个"检索器"产品叫 NeMo Retriever。
AI Foundry:为 AI 做台积电做的事
"这里正在浮现三根支柱。第一根是发明 AI 模型技术,并且替你把它打包好——这就是 NIM。第二根是帮你修改它的工具——这就是 NeMo Microservices。第三根是帮你微调和部署的基础设施——这就是 DGX Cloud。"
"我们本质上是一家 AI Foundry。我们要为 AI 行业做的事,就像 TSMC 为芯片行业做的事——你带着大想法去台积电,它帮你制造,你把产品拿走。同样地,一旦你在我们这里做好了 AI,它就是你的,你可以带到任何地方。"
AI Foundry 的首批旗舰客户:SAP(占全球商业的 87%)、ServiceNow(85% 的财富 500 用它做人力和客服)、Cohesity(数百 EB 的数据备份)、Snowflake(每天 30 亿条查询)、NetApp(全球近一半企业文件)、Dell。
物理 AI:三台计算机与 Project GR00T
"目前所有的 AI 都是一台计算机——数据流进来,AI 模仿我们。但下一波 AI 要理解物理世界,我们需要三台计算机。第一台仍然是 AI 训练机 DGX。第三台是放在机器人里的 AGX/Jetson——全球第一颗机器人处理器,当初人们问我们在造什么——那是一颗低功耗 SoC,专门为高速传感器处理和运行 Transformer 而设计的。但在它们中间,我们还需要第二台计算机。"
"大语言模型有'基于人类反馈的强化学习'——那机器人的'人类反馈'是什么?是物理反馈。机器人要靠物理规律来对齐。所以我们需要一个模拟引擎,给机器人一个可以学习的虚拟世界——它的健身房。我们把这个虚拟世界叫 NVIDIA Omniverse,运行它的机器叫 OVX。"
然后是当天最震撼的发布:Project GR00T——一个面向人形机器人的通用基础模型。"下一代机器人很可能是人形机器人,原因很简单:我们能给它们的模仿数据最多——因为世界是为我们这种形态设计的。我们的工作台、制造线、物流、仓储都是为人设计的,所以人形机器人部署起来会最有效率。"
"我们在造整个 stack:顶层是学习人类视频的基础模型,中间是 Isaac Reinforcement Learning Gym——让机器人学会适应物理世界,底层是一颗叫 Thor 的处理器——同一颗会进机器人汽车的芯片,为 Transformer 引擎设计。"
GR00T 可以让机器人从少量人类演示中学习日常任务、只通过观察我们就模仿人类动作。"连接到大语言模型之后,它甚至能根据自然语言指令生成动作。Hi GR1, can you give me a high five?"
谢幕:五件事
"总结一下今天:
-
新工业革命:加速计算全面铺开,一万亿美元的已装机数据中心会在未来几年被现代化改造。同时,生成式 AI 催生了一种全新的基础设施——不是多用户数据中心,是 AI 生成器——AI 工厂。
-
Blackwell:这一代革命的计算机,为生成式 AI、为万亿参数模型而生。
-
NIM:新计算机催生新软件,新软件需要新的分发方式——既是云上的端点也能随你带走,因为它是你的智能。
-
NeMo 与 AI Foundry:帮助你把 NIM、工具和 DGX Cloud 组合起来,为你造专属的 AI。
-
Omniverse 与 Isaac 机器人:未来所有会动的东西都会是机器人。不是只有你是唯一会动的生物了。仓库、工厂、制造线、汽车——它们都需要一个数字孪生平台,我们叫它 Omniverse——机器人世界的操作系统。"
"当别人问我 GPU 长什么样?我脑子里浮现的是这个——"他指着 Blackwell GB200 NVL72 机柜。"这就是我心目中 GPU 的样子。"
原文出处:GTC 2024 YouTube 完整转录(CNET)+ Ernest Chiang 深度 notes